Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод с помощью графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Q-Q plot позволяет кроме принадлежности

Фактически, \(p.value\) во случае Q-Q Plots будет оценивать человеческий мозг на основе визуального анализа.

Как видите, графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации.

В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.

1. Квантили.

Квантиль дискретной выборки - это одна из точек, делящих упорядоченную последовательность чисел на равные части.

Картинка

Квантиль непрерывного распредления - это одна из точек, делящих функцию плотности распределения на участки, вероятность попадания в которые одинакова, то есть на участки одинаоковой площади.

Картинка

Квантиль-функция \(-\) это функция, которая по значению вероятности \(P\) возвращает такое число (квантиль) \(q\), что вероятность того, что случайная величина примет значение меньше \(q\) равняется \(P\).

\[Quantile(P) = q: \:\:\:\: Probability(x<q) = P\]

Можно представлять себе квантиль-функцию непрерывного распределения, как зависимость арифметического уровеня воды в вазе, стенками которой является функция плотности вероятности \(-\) от объема налитой воды. Эта интерпретация хорошо показана в видео одного бразильского инструктора по статистике.

Картинка

2. QQ-plots. Базовые тезисы.

Base plot

Для начала построим обычный наш базовый квантильный график - теоретических квантилей стандартного нормального распределения от теоретических квантилей стандартного нормального распределения. На следующей картинке в виде непрерывной прямой показана зависимость этих квантилей. Горизонтальные прямые делят зависимое распределение на 8 равных по плащади промежутков, а вертикальные прямые делят независимое распределение на промежутки с таким же смыслом.

Картинка

Выводы:

Физический смысл наклона линии тренда и значение q-q plot в нуле

А что будет, если зависимое распределение более дисперсно? А менее?

Картинка

Вывод:

  • Если главный тренд Q-Q плота положе, чем y = x (график 1), то распределение, построенное не вертикальной оси менее дисперсно, чем распределение, построенное на горизонтальной оси.
  • Если главный тренд Q-Q плота круче, чем y = x (график 2), то распределение, построенное не вертикальной оси менее дисперсно, чем распределение, построенное на горизонтальной оси.
  • Значение квантильной зависимости в нуле – это медиана независимого распределения.

Скошенные распределения

Картинка

Выводы:

  • Делайте сами

Нестандартные распределения.

Равномерное распределение

Картинка

Вывыоды:

  • Квантиль-квантиль плот для равномерного распределения представляет собой \(S\) - образную кривую.

Экспоненциальное распределение

Картинка